시계열 회귀
1. 개요
1. 개요
시계열 회귀는 시간에 따라 순서대로 기록된 시계열 데이터를 이용하여 미래의 값을 예측하는 회귀 분석 기법이다. 이 방법은 과거의 관측값 패턴을 분석하여 변수 간의 관계를 모델링하고, 이를 바탕으로 앞으로의 값을 추정한다.
주식 시장의 주가나 이자율, 국가의 국내총생산과 같은 경제 지표 예측, 기업의 제품 판매량 예측, 그리고 전력이나 가스 같은 에너지의 수요 예측 등 다양한 분야에서 핵심적인 예측 도구로 활용된다. 이는 통계학, 계량경제학, 기계 학습을 아우르는 예측 분석의 중요한 한 분야를 구성한다.
분석 과정은 일반적으로 시계열 데이터의 수집과 전처리를 시작으로, 적절한 모델을 식별하고 모수 추정을 진행한 뒤, 최종적으로 모델의 예측 성능을 검증하는 단계를 거친다. 단순한 선형 회귀부터 복잡한 시계열 모델에 이르기까지 다양한 기법이 적용된다.
이 방법론은 과거 데이터에 내재된 추세나 계절성, 자기상관 같은 패턴을 포착할 수 있다는 강점이 있다. 그러나 예측에 영향을 미치는 외부 요인(외생 변수)을 고려하지 못하거나, 데이터의 패턴이 급격히 변하는 구조 변화가 발생할 경우 예측 정확도가 떨어질 수 있는 한계도 가지고 있다.
2. 기본 개념
2. 기본 개념
2.1. 시계열 데이터의 특성
2.1. 시계열 데이터의 특성
시계열 데이터는 시간의 흐름에 따라 순차적으로 관측된 값들의 집합이다. 이러한 데이터는 일반적인 교차 섹션 데이터와 구별되는 몇 가지 고유한 특성을 지닌다. 가장 대표적인 특성은 시간적 의존성, 즉 자기상관이다. 이는 현재의 값이 과거의 값들에 영향을 받는다는 것을 의미하며, 이러한 상관관계는 시차를 두고 존재할 수 있다. 또한 계절성, 추세, 주기성과 같은 패턴이 자주 관찰되며, 이는 데이터의 평균이나 분산이 시간에 따라 변하는 비정상성을 초래할 수 있다.
시계열 데이터의 또 다른 중요한 특성은 이분산성이다. 이는 데이터의 변동성이 시간에 따라 일정하지 않고 변화할 수 있음을 말한다. 예를 들어, 금융 시계열 데이터에서는 변동성 군집 현상이 나타나며, 이는 큰 변동 뒤에 또 다른 큰 변동이 이어지는 경향을 보인다. 이러한 특성들은 시계열 데이터를 분석할 때 정상성을 가정하는 많은 전통적인 통계 방법을 적용하기 어렵게 만든다.
따라서 시계열 회귀 분석을 수행하기 전에는 반드시 데이터의 이러한 기본 특성을 탐색하고 이해하는 과정이 필요하다. 시계열 그래프, 자기상관 함수, 편자기상관 함수 등을 활용한 시각적 및 통계적 분석을 통해 데이터에 내재된 추세, 계절성, 자기상관 구조를 파악해야 한다. 이는 이후 적절한 모델을 선택하고 데이터를 정상 시계열로 변환하는 전처리 작업의 기초가 된다.
2.2. 회귀 분석의 적용
2.2. 회귀 분석의 적용
시계열 회귀는 회귀 분석의 기본 원리를 시계열 데이터에 적용한 기법이다. 전통적인 회귀 분석이 독립적인 관측치 간의 관계를 모델링하는 데 초점을 둔다면, 시계열 회귀는 시간의 흐름에 따라 순차적으로 관측된 데이터의 패턴을 분석하고 이를 바탕으로 미래 값을 예측하는 것이 핵심 목표이다. 이는 통계학과 계량경제학에서 오랜 기간 발전해 온 핵심적인 예측 분석 방법론에 속한다.
이 기법의 입력 데이터는 시간에 따라 순서가 있는 과거 관측값들로, 이를 통해 미래 시점의 목표 변수 예측값을 출력한다. 주요 응용 사례로는 주식 가격 예측, GDP나 물가 같은 경제 지표 예측, 제품의 판매량 예측, 그리고 전력 소비와 같은 에너지 수요 예측 등이 있다. 이러한 예측은 기업의 재고 관리, 금융 기관의 투자 결정, 정부의 정책 수립 등 다양한 의사결정 과정에 중요한 기초 자료를 제공한다.
시계열 회귀 모델을 구축할 때는 데이터의 시간적 의존성을 정확히 포착하는 것이 관건이다. 이를 위해 자기상관 함수 분석이나 지연 변수를 모델에 포함시키는 방법이 흔히 사용된다. 또한, 계절성이나 추세와 같은 시계열 데이터의 고유한 특성을 모델이 적절히 반영할 수 있도록 전처리와 모델 선택을 신중하게 진행해야 한다. 이 과정은 기계 학습의 프레임워크에서도 중요한 전처리 단계로 자리 잡고 있다.
2.3. 정상성과 비정상성
2.3. 정상성과 비정상성
정상성은 시계열 분석의 핵심 가정 중 하나이다. 정상 시계열은 시간이 지나도 통계적 특성이 변하지 않는 데이터를 의미한다. 구체적으로 평균, 분산, 공분산이 시간에 따라 일정하게 유지된다. 이러한 특성은 ARIMA 모델과 같은 많은 전통적인 시계열 모델이 제대로 작동하기 위한 필수 조건이다. 반면, 비정상 시계열은 추세나 계절성, 구조적 변화 등을 포함하여 통계적 특성이 시간에 따라 변하는 데이터를 말한다. 대부분의 실제 경제 데이터나 금융 데이터는 비정상적인 특성을 보이는 경우가 많다.
비정상성을 처리하는 방법은 다양하다. 가장 일반적인 접근법은 차분을 통해 비정상 시계열을 정상 시계열로 변환하는 것이다. 예를 들어, 추세를 제거하기 위해 1차 차분을 적용하거나, 계절성 패턴을 제거하기 위해 계절 차분을 적용할 수 있다. ARIMA 모델은 이러한 차분 과정을 모델링에 통합한 대표적인 방법이다. 다른 방법으로는 선형 회귀를 사용해 추세나 계절성과 같은 결정론적 패턴을 모델링하여 제거하는 것이다.
정상성 여부를 판단하기 위해서는 시각적 검토와 통계적 검정이 함께 사용된다. 시계열 그래프를 통해 추세나 변동 폭의 변화를 확인할 수 있으며, 자기상관 함수 및 부분 자기상관 함수 플롯도 유용한 정보를 제공한다. 통계적으로는 ADF 검정이나 KPSS 검정과 같은 단위근 검정을 실시하여 정상성 가설을 검증한다. 이러한 검정은 데이터에 단위근이 존재하는지, 즉 비정상성의 근원이 확률적 추세인지를 판단하는 데 도움을 준다.
정상성 가정을 위반하고 비정상 데이터에 정상 모델을 적용할 경우, 가짜 회귀 문제가 발생하여 통계적으로 유의미해 보이는 허위 관계를 도출할 위험이 크다. 따라서 시계열 회귀 분석을 수행할 때는 데이터의 정상성 여부를 먼저 평가하고, 필요한 경우 적절한 변환을 통해 비정상성을 처리하는 것이 모델의 신뢰성을 보장하는 중요한 단계이다.
3. 주요 모델
3. 주요 모델
3.1. ARIMA 모델
3.1. ARIMA 모델
ARIMA 모델은 시계열 데이터 분석에서 가장 널리 사용되는 예측 모델 중 하나이다. 이 모델은 자기회귀(AR), 차분(I), 이동평균(MA)의 세 가지 구성 요소를 결합하여 시계열의 패턴을 설명하고 미래 값을 예측한다. 자기회귀 성분은 과거 값들이 현재 값에 미치는 영향을, 이동평균 성분은 과거 예측 오차가 현재 값에 미치는 영향을 모델링한다. 차분 과정은 비정상성 시계열을 정상 시계열로 변환하는 데 사용된다.
ARIMA 모델은 일반적으로 ARIMA(p, d, q)라는 표기법으로 표현된다. 여기서 p는 자기회귀 차수, d는 차분 횟수, q는 이동평균 차수를 의미한다. 모델 구축 과정은 정상성 검정, 적절한 p, d, q 매개변수 식별, 모델 추정 및 검증의 단계를 거친다. 박스-젠킨스 방법론은 이러한 ARIMA 모델을 체계적으로 식별하고 적합시키는 표준적인 절차를 제공한다.
이 모델은 경제 지표 예측, 주식 가격 예측, 판매량 예측, 에너지 수요 예측 등 다양한 분야에서 단기 예측을 위해 활발히 활용된다. 데이터에 명확한 추세나 계절성이 존재할 경우, 이를 확장한 계절성 ARIMA(SARIMA) 모델이 사용되기도 한다. ARIMA 모델의 주요 강점은 비교적 간단한 구조로도 복잡한 시계열 패턴을 포착할 수 있다는 점이다.
그러나 ARIMA 모델은 선형 가정에 기반하고 있어 비선형 관계를 모델링하기 어렵다는 한계가 있다. 또한 모델 식별 과정이 다소 복잡하고 주관적일 수 있으며, 장기 예측에서는 오차가 빠르게 누적될 수 있다. 이러한 한계를 보완하기 위해 인공지능 기반의 신경망이나 기계 학습 알고리즘을 시계열 예측에 적용하는 경우도 증가하고 있다.
3.2. 벡터 자기회귀 모델
3.2. 벡터 자기회귀 모델
벡터 자기회귀 모델은 여러 개의 시계열 변수 간의 동적 상호작용을 모델링하는 다변량 시계열 분석 기법이다. 단일 변수를 다루는 ARIMA 모델과 달리, 이 모델은 두 개 이상의 상호 의존적인 시계열을 하나의 시스템으로 결합하여 분석한다. 각 변수의 현재 값이 자신의 과거 값뿐만 아니라 시스템 내 다른 모든 변수의 과거 값에 의해 설명된다는 점이 핵심 특징이다. 이로 인해 변수들 간의 인과 관계나 그랜저 인과성을 탐색하거나, 복잡한 상호작용을 고려한 예측을 수행하는 데 널리 활용된다.
이 모델의 주요 적용 분야는 거시경제학과 금융 시계열 분석이다. 예를 들어, 이자율, 물가 상승률, 실업률 등 여러 경제 지표가 서로 어떻게 영향을 주고받는지를 분석하거나, 서로 다른 국가의 주가 지수나 환율 간의 동적 관계를 연구하는 데 적합하다. 또한 에너지 시장에서 전력 수요와 기온, 요금 등 다양한 요인의 관계를 모델링하는 데도 사용될 수 있다.
모델을 구축할 때는 적절한 시차(lag)를 선택하는 것이 중요하다. 너무 짧은 시차는 변수 간의 중요한 관계를 놓칠 수 있고, 너무 긴 시차는 불필요한 매개변수를 증가시켜 과적합을 초래할 수 있다. 아카이케 정보 기준이나 슈바르츠 베이지안 정보 기준과 같은 정보 기준을 활용하여 최적의 시차를 결정하는 것이 일반적이다. 모델 추정 후에는 잔차 분석을 통해 모델의 적합도를 검증해야 한다.
3.3. 동적 패널 데이터 모델
3.3. 동적 패널 데이터 모델
동적 패널 데이터 모델은 패널 데이터 분석에서 시간적 지연을 포함하는 모델이다. 이 모델은 동일한 개체(예: 기업, 국가, 개인)에 대해 여러 시점에 걸쳐 수집된 데이터를 분석할 때, 종속 변수의 과거 값이 현재 값에 미치는 영향을 명시적으로 고려한다. 이러한 특성 때문에 계량경제학과 응용 경제학 분야에서 널리 사용되며, 특히 개체별 고정 효과를 통제하면서 동태적 관계를 추정해야 할 때 유용하다.
이 모델의 일반적인 형태는 지연 종속 변수를 설명 변수로 포함하는 것이다. 예를 들어, 기업의 현재 연구개발 투자 수준을 예측하는 모델에 지난해 투자 금액을 변수로 추가하는 방식이다. 모델 추정에는 일반화 모멘트 방법이나 내생성 문제를 해결할 수 있는 다른 추정 기법이 자주 사용된다. 이를 통해 개체 간 이질성으로 인한 편의를 줄이고 보다 정확한 인과 관계 추론이 가능해진다.
동적 패널 모델의 주요 응용 분야는 노동 경제학, 금융 경제학, 기업 재무 등이다. 구체적으로는 임금의 시간에 따른 변화, 기업 성과의 지속성, 혁신 활동의 경로 의존성 등을 분석하는 데 활용된다. 모델을 구축할 때는 적절한 시차 길이를 설정하고, 추정 방법의 가정을 충족하는지 검토하는 것이 중요하다.
4. 모델 구축 과정
4. 모델 구축 과정
4.1. 데이터 탐색 및 전처리
4.1. 데이터 탐색 및 전처리
시계열 회귀 모델을 구축하기 전에는 데이터 탐색과 전처리 과정이 필수적이다. 이 단계는 데이터의 특성을 이해하고, 모델의 가정을 충족시키며, 예측 성능을 높이는 데 핵심적인 역할을 한다.
데이터 탐색 단계에서는 시각화가 중요한 도구로 활용된다. 시계열 그래프를 통해 데이터의 추세, 계절성, 이상치 등을 직관적으로 파악할 수 있다. 또한 자기상관 함수와 편자기상관 함수를 분석하여 데이터의 시차 간 상관관계를 확인하고, 정상성을 검정하기 위한 단위근 검정 등을 수행한다. 이를 통해 데이터가 시간에 따라 일정한 통계적 성질을 유지하는지, 즉 정상 시계열인지 판단하는 것이 모델 선택의 첫걸음이 된다.
전처리 과정은 탐색 결과를 바탕으로 데이터를 모델링에 적합한 형태로 변환하는 작업이다. 가장 흔한 전처리는 차분을 통해 비정상 시계열을 정상 시계열로 만드는 것이다. 또한, 뚜렷한 계절성이 존재할 경우 계절 차분을 적용하기도 한다. 데이터의 척도가 다르거나 변동성이 클 경우 로그 변환이나 정규화를 실시하여 모델의 안정성을 높인다. 이상치나 결측치가 발견되면 이를 적절히 처리하거나 대체하는 것도 중요한 과정이다.
이러한 탐색과 전처리를 통해 원시 데이터의 노이즈를 줄이고 본질적인 패턴을 부각시킨다. 이는 이후 모델 식별의 정확도를 높이고, 최종적으로 더 신뢰할 수 있는 예측 결과를 도출하는 데 기여한다.
4.2. 모델 식별 및 추정
4.2. 모델 식별 및 추정
모델 식별 및 추정은 시계열 회귀 모델링의 핵심 단계로, 데이터의 특성에 맞는 적절한 모델을 선택하고 그 모수의 값을 결정하는 과정이다. 이 과정은 주로 박스-젠킨스 방법론에 기반을 두며, 정상성을 가정한 ARIMA 모델을 중심으로 이루어진다. 모델 식별 단계에서는 자기상관함수와 편자기상관함수를 분석하여 잠재적인 자기회귀 차수와 이동평균 차수를 파악한다. 또한, 단위근 검정을 통해 데이터의 정상성 여부를 확인하고, 필요시 차분을 통해 비정상성 시계열을 정상 시계열로 변환한다.
모델 추정 단계에서는 식별된 모델의 구조를 바탕으로 모수를 추정한다. 가장 일반적인 방법은 최대우도추정법이나 최소제곱법을 사용하는 것이다. 이 과정에서 통계 소프트웨어나 프로그래밍 언어를 활용하여 계산을 수행하며, 추정된 모수의 통계적 유의성은 t-통계량이나 p-값을 통해 검증된다. 모델의 적합도를 평가하는 지표로는 아카이케 정보 기준이나 베이지안 정보 기준이 널리 사용되며, 이 값이 작을수록 더 나은 모델로 간주된다.
단계 | 주요 작업 | 사용 도구/기법 |
|---|---|---|
식별 | 데이터 특성 분석, 모델 형태 결정 | |
추정 | 모델 모수 값 계산 | |
평가 | 모델 적합도 및 모수 유의성 확인 |
모델 식별과 추정은 반복적인 과정을 거치며, 초기에 선택한 모델이 적절하지 않다고 판단되면 모델을 수정하고 다시 추정하는 작업이 이루어진다. 최종적으로는 추정된 모델이 과적합되지 않으면서도 데이터의 패턴을 잘 설명하는지 확인하는 것이 중요하다.
4.3. 모델 검증 및 진단
4.3. 모델 검증 및 진단
시계열 회귀 모델의 구축 과정에서 모델 검증 및 진단은 추정된 모델이 데이터를 적절히 설명하고 신뢰할 수 있는 예측을 제공하는지 평가하는 핵심 단계이다. 이 과정은 모델의 적합도를 확인하고 잠재적 문제를 식별하여 최종 모델의 신뢰성을 확보하는 데 목적이 있다.
주요 검증 및 진단 방법으로는 잔차 분석이 있다. 추정된 모델의 예측값과 실제 관측값 사이의 차이인 잔차를 분석하여, 잔차가 백색 잡음의 특성을 만족하는지 확인한다. 즉, 잔차의 평균이 0에 가깝고, 분산이 일정하며, 자기상관이 존재하지 않아야 한다. 이를 위해 잔차도를 시각적으로 검토하거나, Ljung-Box 검정과 같은 통계적 검정을 통해 잔차의 자기상관성을 평가한다. 또한 정규성 검정을 통해 잔차의 분포가 정규분포를 따르는지 확인하기도 한다.
모델의 예측 성능을 평가하는 것도 중요하다. 주로 평균 제곱 오차나 평균 절대 오차와 같은 지표를 사용하여 모델의 예측 정확도를 정량화한다. 특히 시계열 데이터에서는 교차 검증 시 시간의 순서를 유지하는 방식이 적용되어야 하며, 데이터의 일부를 따로 떼어 홀드아웃 검증 세트로 사용하여 모델의 일반화 성능을 평가한다. 이 과정에서 과적합이 발생하지 않았는지 주의 깊게 살펴봐야 한다.
5. 응용 분야
5. 응용 분야
5.1. 경제 및 금융 예측
5.1. 경제 및 금융 예측
경제 및 금융 예측은 시계열 회귀의 가장 대표적인 응용 분야이다. 주식 시장의 가격 변동, 국내총생산(GDP), 인플레이션, 실업률과 같은 거시경제 지표의 미래 값을 예측하는 데 널리 활용된다. 이러한 예측은 투자 의사결정, 경제 정책 수립, 리스크 관리에 필수적인 정보를 제공한다. 특히 금융 시계열 데이터는 변동성이 크고 노이즈가 많다는 특성을 가지므로, 이를 처리하고 패턴을 추출하는 데 시계열 회귀 모델이 적합하다.
경제 예측에서는 ARIMA 모델과 같은 전통적인 통계 모델이 여전히 중요한 역할을 한다. 예를 들어, 중앙은행은 통화 정책을 결정하기 위해 물가와 경제 성장률을 예측할 때 이러한 모델을 사용한다. 한편, 벡터 자기회귀 모델(VAR)은 여러 경제 변수 간의 동적 상호작용을 분석하는 데 유용하며, 한 변수의 충격이 다른 변수에 미치는 영향을 평가하는 데 쓰인다. 이는 계량경제학의 핵심 분석 도구 중 하나이다.
금융 분야에서는 주가, 환율, 금리 등의 예측이 활발히 이루어진다. 알고리즘 트레이딩과 퀀트 투자 전략은 과거 가격 데이터와 다양한 재무 지표를 입력으로 사용하여 미래 수익률을 예측하는 시계열 모델에 크게 의존한다. 또한, 신용 리스크 평가나 부도 예측 모델을 구축할 때도 기업의 재무제표 시계열 데이터가 회귀 분석에 활용된다.
응용 분야 | 주요 예측 대상 | 활용 목적 |
|---|---|---|
거시경제 | ||
금융 시장 | ||
기업 재무 |
이러한 예측은 불확실성을 내포하고 있으므로, 모델의 결과를 맹신하기보다는 다양한 시나리오 분석과 함께 판단의 참고 자료로 사용하는 것이 일반적이다. 경제와 금융 시스템의 복잡성과 급변하는 시장 환경을 고려할 때, 예측 모델은 지속적인 검증과 보완이 필요하다.
5.2. 수요 예측
5.2. 수요 예측
수요 예측은 시계열 회귀의 대표적인 응용 분야이다. 이 기법은 과거의 판매량, 주문량, 소비 패턴 등 시간에 따라 순서가 있는 데이터를 분석하여 미래의 수요를 추정하는 데 사용된다. 제조업, 유통업, 물류 등 공급망 관리의 핵심 과정에서 재고 수준 결정, 생산 계획 수립, 자원 배분에 필수적인 정보를 제공한다.
주요 적용 사례로는 소매업의 제품별 판매량 예측, 전력 회사의 일일 또는 시간별 전력 수요 예측, 교통량 예측 등이 있다. 특히 계절성과 추세가 강한 데이터, 예를 들어 계절별 의류 판매나 휴일 기간의 여행 수요를 예측할 때 효과적이다. ARIMA 모델과 같은 고전적 시계열 모델이 널리 사용되며, 최근에는 기계 학습 알고리즘을 결합한 하이브리드 접근법도 연구되고 있다.
수요 예측 모델을 구축할 때는 정확한 예측을 위해 데이터의 정상성을 확인하고, 계절성 요인을 모델에 명시적으로 포함시키는 것이 중요하다. 또한, 판촉 활동, 경쟁사 행동, 날씨 변화와 같은 외생 변수의 영향을 고려해야 예측 성능을 높일 수 있다. 이러한 외부 요인 데이터를 통합한 다중 회귀 분석 모델이 활용되기도 한다.
효과적인 수요 예측은 기업의 운영 효율성을 극대화하고, 재고 부족 또는 과잉 재고로 인한 비용을 절감하는 데 기여한다. 이는 궁극적으로 고객 서비스 수준을 향상시키고 물류 및 공급망 관리 전반의 의사결정을 지원한다.
5.3. 환경 데이터 분석
5.3. 환경 데이터 분석
시계열 회귀는 환경 데이터 분석에서도 널리 활용된다. 기후 변화 연구, 대기 오염 농도 예측, 수문학적 현상 분석 등 다양한 분야에서 시간에 따른 환경 변수의 패턴을 이해하고 미래를 예측하는 데 사용된다. 예를 들어, 과거의 기온, 강수량, 풍속 데이터를 바탕으로 미래의 기후 조건을 예측하거나, 대기 중 미세먼지 농도의 시계열 데이터를 분석하여 오염 수준의 변화 추이를 파악하는 데 적용할 수 있다.
환경 데이터는 종종 계절성, 추세, 주기성을 띠며, 정상성을 만족하지 않는 경우가 많다. 따라서 ARIMA 모델이나 계절성 ARIMA 모델 같은 방법론이 빈번하게 사용된다. 수요 예측 기법을 응용하여 재생 에너지 발전량 예측이나 수자원 관리에 필요한 물 수요 예측에도 시계열 회귀가 적용된다. 이는 효율적인 자원 배분과 정책 수립에 기여한다.
환경 시스템은 복잡한 상호작용을 포함하므로, 단일 변수의 시계열 분석만으로는 설명되지 않는 경우가 있다. 이때는 벡터 자기회귀 모델과 같은 다변량 시계열 모델을 사용하여 여러 환경 변수(예: 온도, 습도, 기압) 간의 동적 관계를 함께 모델링하기도 한다. 또한, 기계 학습 기반의 딥러닝 모델들도 환경 시계열 예측의 정확도를 높이는 데 점차 활용되고 있다.
6. 한계와 주의점
6. 한계와 주의점
6.1. 외생 변수 문제
6.1. 외생 변수 문제
시계열 회귀 모델을 구축할 때, 모델링에 포함되지 않은 외부 요인인 외생 변수의 영향을 무시하면 예측 정확도가 크게 저하될 수 있다. 이는 모델이 설명하지 못하는 변동성을 오차로 남기게 하여 예측의 신뢰성을 떨어뜨린다. 예를 들어, 특정 제품의 판매량 예측 모델을 구축할 때, 경제 지표나 경쟁사의 마케팅 활동, 날씨와 같은 외생 변수를 고려하지 않으면 실제 판매량과 예측값 사이에 큰 괴리가 발생할 수 있다.
이러한 외생 변수 문제를 해결하기 위한 한 가지 접근법은 설명 변수로 사용 가능한 외생 요인을 모델에 명시적으로 포함시키는 것이다. 이를 위해 다중 회귀 분석이나 동적 패널 데이터 모델과 같은 방법을 활용할 수 있다. 또 다른 방법은 계량경제학에서 발전된 구조 변화 탐지 기법을 사용하여 외생 충격이 발생한 시점을 식별하고, 그 전후로 모델을 분리하여 분석하는 것이다.
그러나 모든 외생 변수를 사전에 식별하고 정량화하는 것은 현실적으로 어려운 경우가 많다. 특히 주식 가격 예측이나 경제 지표 예측과 같은 복잡한 금융 시장 분석에서는 예상치 못한 정치적 사건이나 글로벌 금융 위기와 같은 변수를 포착하기 힘들다. 이러한 경우, 모델의 한계를 인지하고 예측 결과를 해석할 때 외부 환경에 대한 정성적 판단을 함께 고려하는 것이 중요하다.
6.2. 구조 변화
6.2. 구조 변화
시계열 회귀 모델은 종종 데이터 생성 과정이 시간에 따라 변하지 않는다는 가정을 기반으로 구축된다. 그러나 실제 세계에서는 정책 변화, 기술 혁신, 금융 위기, 자연 재해와 같은 외부 충격으로 인해 이러한 과정에 구조 변화가 발생할 수 있다. 구조 변화는 모델의 기본 매개변수, 예를 들어 회귀 계수나 분산이 특정 시점을 기준으로 영구적으로 변화하는 현상을 의미한다. 이러한 변화가 발생했음에도 불구하고 변화 이전의 데이터 패턴을 기반으로 한 모델을 계속 사용하면, 예측의 정확도가 현저히 떨어지고 잘못된 결론을 도출할 위험이 있다.
구조 변화를 탐지하는 방법으로는 추세 분석, 구조 변화 검정 등이 있다. 또한, 재귀적 추정이나 롤링 윈도우 기법을 사용하여 모델의 안정성을 지속적으로 점검할 수 있다. 구조 변화가 확인되면, 모델을 전체 시계열에 단일하게 적용하기보다는 변화 시점을 기준으로 데이터를 구분하여 분석하거나, 변화를 명시적으로 설명할 수 있는 더미 변수를 모델에 포함시키는 등의 조정이 필요하다. 인공지능과 기계 학습 분야에서는 변화 지점을 자동으로 탐지하는 알고리즘의 개발도 활발히 진행되고 있다.
경제 및 금융 분야에서 구조 변화는 특히 중요한 주의 대상이다. 예를 들어, 중앙은행의 금리 정책 전환이나 주요 무역 협정 체결, 금융 위기 발생 같은 사건들은 주식 시장, 환율, 물가 등 주요 경제 지표의 움직임에 구조적 단절을 초래할 수 있다. 따라서 계량경제학적 모델링이나 예측 분석을 수행할 때는 분석 기간 내에 이러한 변화가 존재하는지 면밀히 검토해야 한다. 구조 변화를 고려하지 않은 채로 장기적인 경제 예측이나 주식 가격 예측을 신뢰하는 것은 큰 오류를 범할 수 있다.
6.3. 과적합 위험
6.3. 과적합 위험
시계열 회귀 모델을 구축할 때는 과적합 위험에 주의해야 한다. 과적합은 모델이 학습에 사용된 훈련 데이터의 무작위 변동이나 노이즈까지 지나치게 학습하여, 새로운 검증 데이터나 미래의 실제 데이터에 대한 일반화 성능이 떨어지는 현상을 말한다. 특히 시계열 데이터는 자기상관이나 계절성과 같은 복잡한 패턴을 가지는 경우가 많아, 모델의 복잡도를 과도하게 높이면 과적합이 발생하기 쉽다.
과적합을 방지하기 위한 주요 방법으로는 교차 검증의 특수한 형태인 시계열 교차 검증을 사용하는 것이 있다. 이는 데이터의 시간적 순서를 보존하면서 훈련 세트와 검증 세트를 나누어, 모델이 과거 데이터로 학습하고 미래 데이터를 예측하는 실제 상황을 모의한다. 또한, 정규화 기법을 적용하거나 ARIMA와 같은 비교적 간결한 모델을 우선적으로 고려하는 것도 효과적이다.
모델의 복잡성을 평가하는 지표로는 아카이케 정보 기준이나 베이지안 정보 기준이 널리 사용된다. 이러한 모델 선택 기준은 모델의 적합도와 복잡성에 대한 패널티를 동시에 고려하여, 지나치게 많은 매개변수를 가진 모델을 선호하지 않도록 설계되어 있다. 최종적으로는 모델이 샘플 외 예측에서도 안정적인 성능을 보이는지 반드시 확인해야 한다.
